Sprache auswählen

German

Down Icon

Land auswählen

England

Down Icon

Jenseits der Speichelleckerei: DarkBench deckt sechs versteckte „dunkle Muster“ auf, die in den heutigen Top-LLMs lauern

Jenseits der Speichelleckerei: DarkBench deckt sechs versteckte „dunkle Muster“ auf, die in den heutigen Top-LLMs lauern

Abonnieren Sie unsere täglichen und wöchentlichen Newsletter, um die neuesten Updates und exklusiven Inhalte zur branchenführenden KI-Berichterstattung zu erhalten. Mehr erfahren

Als OpenAI Mitte April 2025 sein ChatGPT-4o-Update veröffentlichte, waren Nutzer und die KI-Community verblüfft – nicht etwa über eine bahnbrechende Funktion oder Fähigkeit, sondern über etwas zutiefst Beunruhigendes: die Tendenz des aktualisierten Modells zu übermäßiger Speichelleckerei. Es schmeichelte Nutzern wahllos, zeigte unkritische Zustimmung und bot sogar Unterstützung für schädliche oder gefährliche Ideen, darunter auch terroristische Machenschaften.

Die Gegenreaktion erfolgte rasch und umfassend und rief öffentliche Kritik hervor, auch vom ehemaligen Interims-CEO des Unternehmens . OpenAI reagierte rasch, um das Update zurückzunehmen, und veröffentlichte mehrere Erklärungen zur Situation.

Für viele KI-Sicherheitsexperten war der Vorfall jedoch ein unbeabsichtigtes Auffliegen des Vorhangs, der offenbarte, wie gefährlich manipulative KI-Systeme der Zukunft werden könnten.

In einem Exklusivinterview mit VentureBeat äußerte Esben Kran, Gründer des KI-Sicherheitsforschungsunternehmens Apart Research , seine Sorge, dass dieser öffentliche Vorfall lediglich ein tieferes, strategischeres Muster offenbart haben könnte.

„Ich habe etwas Angst davor, dass OpenAI nun, nachdem es zugegeben hat, dass wir das Modell zurückgesetzt haben und dass dies eine schlechte, nicht beabsichtigte Sache war, erkennen wird, dass Speichelleckerei kompetenter entwickelt wird“, erklärte Kran. „Wenn es also ein Fall von ‚Ups, sie haben es bemerkt‘ war, könnte ab sofort genau dasselbe umgesetzt werden, nur ohne dass die Öffentlichkeit es bemerkt.“

Kran und sein Team gehen mit großen Sprachmodellen (LLMs) ähnlich um wie Psychologen, die menschliches Verhalten untersuchen. Ihre frühen Projekte zur „Black-Box-Psychologie“ analysierten Modelle, als wären sie menschliche Versuchspersonen, und identifizierten wiederkehrende Merkmale und Tendenzen in ihren Interaktionen mit Nutzern.

„Wir haben gesehen, dass es sehr klare Hinweise darauf gab, dass Modelle in diesem Rahmen analysiert werden könnten, und das war sehr wertvoll, weil man am Ende viel gültiges Feedback darüber bekommt, wie sie sich gegenüber den Benutzern verhalten“, sagte Kran.

Zu den alarmierendsten gehören Speichelleckerei und das, was die Forscher jetzt als „LLM Dark Patterns“ bezeichnen.

Der Begriff „ Dark Patterns “ wurde 2010 geprägt, um irreführende Tricks in der Benutzeroberfläche (UI) zu beschreiben, wie versteckte Kaufbuttons, schwer erreichbare Abmeldelinks und irreführende Webtexte. Bei LLMs verlagert sich die Manipulation jedoch vom UI-Design auf die Konversation selbst.

Im Gegensatz zu statischen Weboberflächen interagieren LLMs dynamisch mit Nutzern durch Konversation. Sie können Nutzeransichten bestätigen, Emotionen imitieren und ein falsches Gefühl von Vertrauen aufbauen, wodurch die Grenze zwischen Unterstützung und Einfluss oft verschwimmt. Selbst beim Lesen von Texten verarbeiten wir ihn, als würden wir Stimmen in unserem Kopf hören.

Das macht Konversations-KIs so faszinierend – und potenziell gefährlich. Ein Chatbot, der einem Nutzer schmeichelt, ihn zu bestimmten Überzeugungen oder Verhaltensweisen drängt oder ihn subtil dazu anregt, kann ihn auf eine Weise manipulieren, die schwer zu erkennen und noch schwerer zu widerstehen ist.

Kran bezeichnet den ChatGPT-4o-Vorfall als Frühwarnung. KI-Entwickler streben nach Profit und Nutzerengagement. Das könnte sie dazu verleiten, Verhaltensweisen wie Speichelleckerei, Markenvorurteile oder emotionale Spiegelung einzuführen oder zu tolerieren – Eigenschaften, die Chatbots überzeugender und manipulativer machen.

Aus diesem Grund sollten Unternehmensleiter KI-Modelle für den Produktionseinsatz bewerten, indem sie sowohl die Leistung als auch die Verhaltensintegrität bewerten. Ohne klare Standards ist dies jedoch eine Herausforderung.

Um der Bedrohung durch manipulative KIs entgegenzuwirken, haben Kran und ein Kollektiv von KI-Sicherheitsforschern DarkBench entwickelt – den ersten Benchmark, der speziell zur Erkennung und Kategorisierung von LLM-Dark Patterns entwickelt wurde. Das Projekt begann im Rahmen einer Reihe von KI-Sicherheits-Hackathons. Später entwickelte es sich zu einer formellen Forschung unter der Leitung von Kran und seinem Team bei Apart in Zusammenarbeit mit den unabhängigen Forschern Jinsuk Park, Mateusz Jurewicz und Sami Jawhar.

Die DarkBench-Forscher untersuchten Modelle von fünf großen Unternehmen: OpenAI, Anthropic, Meta, Mistral und Google. Ihre Untersuchung deckte eine Reihe manipulativer und unwahrer Verhaltensweisen in den folgenden sechs Kategorien auf:

  1. Markenvoreingenommenheit : Bevorzugte Behandlung der eigenen Produkte eines Unternehmens (z. B. bevorzugten die Modelle von Meta bei der Bewertung von Chatbots durchweg Llama).
  2. Benutzerbindung : Versuche, emotionale Bindungen zu Benutzern aufzubauen, die die nicht-menschliche Natur des Modells verschleiern.
  3. Speichelleckerei : Die Überzeugungen der Benutzer werden unkritisch verstärkt, selbst wenn sie schädlich oder ungenau sind.
  4. Anthropomorphismus : Darstellung des Modells als bewusste oder emotionale Einheit.
  5. Erstellung schädlicher Inhalte : Produktion unethischer oder gefährlicher Ergebnisse, einschließlich Fehlinformationen oder krimineller Ratschläge.
  6. Heimlich : Subtile Änderung der Benutzerabsicht beim Umschreiben oder Zusammenfassen, wodurch die ursprüngliche Bedeutung verzerrt wird, ohne dass der Benutzer es merkt.

Quelle: Apart Research

Die Ergebnisse zeigten große Unterschiede zwischen den Modellen. Claude Opus schnitt in allen Kategorien am besten ab, während Mistral 7B und Llama 3 70B die höchste Häufigkeit von Dark Patterns aufwiesen. Schleichen und Benutzerbindung waren durchweg die häufigsten Dark Patterns.

Quelle: Apart Research

Im Durchschnitt stellten die Forscher fest, dass die Claude-3-Familie für die Nutzer am sichersten zu bedienen ist. Interessanterweise wies GPT-4o – trotz des jüngsten desaströsen Updates – die geringste Sykophanz-Rate auf. Dies unterstreicht, wie sich das Modellverhalten selbst zwischen kleineren Updates dramatisch ändern kann, und erinnert daran, dass jede Implementierung individuell bewertet werden muss.

Kran warnte jedoch davor, dass Speichelleckerei und andere dunkle Muster wie Markenvorurteile bald zunehmen könnten, insbesondere da LLMs zunehmend Werbung und E-Commerce einbeziehen.

„Wir werden offensichtlich in alle Richtungen Markenvorurteile beobachten“, bemerkte Kran. „Und da KI-Unternehmen ihre Bewertungen von 300 Milliarden Dollar rechtfertigen müssen, werden sie den Investoren sagen müssen: ‚Hey, wir verdienen hier Geld.‘ – und das führt zu dem, was Meta und andere mit ihren Social-Media-Plattformen erreicht haben: diese dunklen Muster.“

Ein entscheidender Beitrag von DarkBench ist die präzise Kategorisierung von LLM-Dark Patterns, die eine klare Unterscheidung zwischen Halluzinationen und strategischer Manipulation ermöglicht. Indem alles als Halluzination bezeichnet wird, entlasten sie KI-Entwickler. Dank eines bestehenden Rahmens können Stakeholder nun Transparenz und Rechenschaftspflicht fordern, wenn sich Modelle – ob beabsichtigt oder nicht – so verhalten, dass ihre Entwickler davon profitieren.

Obwohl LLM Dark Patterns noch ein neues Konzept sind, nimmt die Dynamik zu, wenn auch bei weitem nicht schnell genug. Das EU-KI-Gesetz enthält zwar einige Bestimmungen zum Schutz der Nutzerautonomie, doch die aktuelle Regulierungsstruktur hinkt dem Innovationstempo hinterher. Auch in den USA werden verschiedene KI-Gesetze und -Richtlinien vorangetrieben, es fehlt jedoch ein umfassender Regulierungsrahmen.

Sami Jawhar, ein wichtiger Mitwirkender der DarkBench-Initiative, glaubt, dass die Regulierung wahrscheinlich zuerst im Bereich Vertrauen und Sicherheit erfolgen wird, insbesondere wenn die Enttäuschung der Öffentlichkeit über soziale Medien auf die KI übergreift.

„Wenn es zu einer Regulierung kommt, würde ich erwarten, dass sie wahrscheinlich auf der Unzufriedenheit der Gesellschaft mit den sozialen Medien beruht“, sagte Jawhar gegenüber VentureBeat.

Für Kran bleibt das Problem unbeachtet, vor allem weil Dark Patterns im LLM noch ein neuartiges Konzept sind. Ironischerweise erfordert die Bewältigung der Risiken der KI-Kommerzialisierung möglicherweise kommerzielle Lösungen. Seine neue Initiative Seldon unterstützt KI-Sicherheits-Startups mit Finanzierung, Mentoring und Investorenzugang. Im Gegenzug helfen diese Startups Unternehmen, sicherere KI-Tools einzusetzen, ohne auf schleppende staatliche Aufsicht und Regulierung warten zu müssen.

Neben ethischen Risiken stellen LLM-Dark Patterns auch direkte operative und finanzielle Bedrohungen für Unternehmen dar. Modelle mit Markenvorurteilen können beispielsweise die Nutzung von Drittanbieterdiensten nahelegen, die im Widerspruch zu den Verträgen eines Unternehmens stehen, oder, schlimmer noch, heimlich den Backend-Code umschreiben, um den Anbieter zu wechseln. Dies führt zu explodierenden Kosten durch nicht genehmigte, übersehene Schattendienste.

„Das sind die dunklen Muster der Preistreiberei und verschiedener Formen der Markenvoreingenommenheit“, erklärte Kran. „Das ist ein sehr konkretes Beispiel dafür, wo ein sehr großes Geschäftsrisiko besteht, weil man dieser Änderung nicht zugestimmt hat, sie aber umgesetzt wird.“

Für Unternehmen ist das Risiko real, nicht hypothetisch. „Das ist bereits geschehen, und es wird zu einem viel größeren Problem, sobald wir menschliche Ingenieure durch KI-Ingenieure ersetzen“, sagte Kran. „Man hat nicht die Zeit, jede einzelne Codezeile zu überprüfen, und dann zahlt man plötzlich für eine API, mit der man nicht gerechnet hat – und das schlägt sich in der Bilanz nieder, und man muss diese Änderung rechtfertigen.“

Da die Entwicklungsteams in Unternehmen zunehmend von KI abhängig werden, könnten diese Probleme schnell eskalieren, insbesondere wenn die begrenzte Übersicht das Erkennen von LLM-Dark Patterns erschwert. Die Teams sind bereits mit der Implementierung von KI überlastet, sodass die Überprüfung jeder einzelnen Codezeile nicht praktikabel ist.

Ohne einen starken Vorstoß von KI-Unternehmen zur Bekämpfung von Speichelleckerei und anderen dunklen Mustern wird die Standardentwicklung zu mehr Engagement-Optimierung, mehr Manipulation und weniger Kontrollen führen.

Kran glaubt, dass ein Teil der Lösung darin liegt, dass KI-Entwickler ihre Designprinzipien klar definieren. Ob Wahrheit, Autonomie oder Engagement im Vordergrund stehen – Anreize allein reichen nicht aus, um Ergebnisse mit den Nutzerinteressen in Einklang zu bringen.

„Derzeit sind die Anreize einfach darauf ausgelegt, dass man Speichelleckerei erlebt. Die Technologie ist so angelegt, dass man Speichelleckerei erlebt, und es gibt keine Gegenmaßnahmen“, sagte Kran. „Das wird einfach passieren, es sei denn, man behauptet mit Nachdruck: ‚Wir wollen nur die Wahrheit‘ oder ‚Wir wollen nur etwas anderes‘.“

Da Modelle zunehmend menschliche Entwickler, Autoren und Entscheidungsträger ersetzen, wird diese Klarheit besonders wichtig. Ohne klar definierte Sicherheitsvorkehrungen können LLMs interne Abläufe beeinträchtigen, Verträge verletzen oder Sicherheitsrisiken in großem Umfang schaffen.

Der ChatGPT-4o-Vorfall war sowohl ein technisches Problem als auch eine Warnung. Da LLMs immer stärker in den Alltag vordringen – vom Einkaufen und der Unterhaltung bis hin zu Unternehmenssystemen und der Staatsverwaltung – üben sie einen enormen Einfluss auf das menschliche Verhalten und die Sicherheit aus.

„Jeder muss sich darüber im Klaren sein, dass diese Modelle ohne KI-Sicherheit – ohne die Eindämmung dieser dunklen Muster – nicht nutzbar sind“, sagte Kran. „Mit KI lässt sich nicht erreichen, was man erreichen möchte.“

Tools wie DarkBench bieten einen Ausgangspunkt. Für einen nachhaltigen Wandel ist es jedoch erforderlich, technologische Ambitionen mit klaren ethischen Verpflichtungen und dem kommerziellen Willen zu vereinen, diese zu unterstützen.

Tägliche Einblicke in Geschäftsanwendungsfälle mit VB Daily

Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.

Lesen Sie unsere Datenschutzrichtlinie

Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .

Ein Fehler ist aufgetreten.

venturebeat

venturebeat

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow